We propose a new neural network design paradigm Reversible Column Network (RevCol). The main body of RevCol is composed of multiple copies of subnetworks, named columns respectively, between which multi-level reversible connections are employed. Such architectural scheme attributes RevCol very different behavior from conventional networks: during forward propagation, features in RevCol are learned to be gradually disentangled when passing through each column, whose total information is maintained rather than compressed or discarded as other network does. Our experiments suggest that CNN-style RevCol models can achieve very competitive performances on multiple computer vision tasks such as image classification, object detection and semantic segmentation, especially with large parameter budget and large dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2% ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0% mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection and ADE20k segmentation result among pure (static) CNN models. Moreover, as a general macro architecture fashion, RevCol can also be introduced into transformers or other neural networks, which is demonstrated to improve the performances in both computer vision and NLP tasks. We release code and models at https://github.com/megvii-research/RevCol
translated by 谷歌翻译
The material science literature contains up-to-date and comprehensive scientific knowledge of materials. However, their content is unstructured and diverse, resulting in a significant gap in providing sufficient information for material design and synthesis. To this end, we used natural language processing (NLP) and computer vision (CV) techniques based on convolutional neural networks (CNN) to discover valuable experimental-based information about nanomaterials and synthesis methods in energy-material-related publications. Our first system, TextMaster, extracts opinions from texts and classifies them into challenges and opportunities, achieving 94% and 92% accuracy, respectively. Our second system, GraphMaster, realizes data extraction of tables and figures from publications with 98.3\% classification accuracy and 4.3% data extraction mean square error. Our results show that these systems could assess the suitability of materials for a certain application by evaluation of synthesis insights and case analysis with detailed references. This work offers a fresh perspective on mining knowledge from scientific literature, providing a wide swatch to accelerate nanomaterial research through CNN.
translated by 谷歌翻译
Generalizable 3D part segmentation is important but challenging in vision and robotics. Training deep models via conventional supervised methods requires large-scale 3D datasets with fine-grained part annotations, which are costly to collect. This paper explores an alternative way for low-shot part segmentation of 3D point clouds by leveraging a pretrained image-language model, GLIP, which achieves superior performance on open-vocabulary 2D detection. We transfer the rich knowledge from 2D to 3D through GLIP-based part detection on point cloud rendering and a novel 2D-to-3D label lifting algorithm. We also utilize multi-view 3D priors and few-shot prompt tuning to boost performance significantly. Extensive evaluation on PartNet and PartNet-Mobility datasets shows that our method enables excellent zero-shot 3D part segmentation. Our few-shot version not only outperforms existing few-shot approaches by a large margin but also achieves highly competitive results compared to the fully supervised counterpart. Furthermore, we demonstrate that our method can be directly applied to iPhone-scanned point clouds without significant domain gaps.
translated by 谷歌翻译
物理信息神经网络(PINN)的自适应训练方法需要专门的构造,以分配每个训练样本分配的权重分布。有效地寻求这种最佳的权重分布并不是一项简单的任务,大多数现有方法基于近似值的全部分布或最大值选择自适应权重。在本文中,我们表明,用于训练效率的样品自适应选择中的瓶颈是数值残差的尾巴分布的行为。因此,我们提出了剩余的定量调整(RQA)方法,可为每个训练样本提供更好的体重选择。最初将权重设置与剩余的$ p $ th功率成正比之后,我们的RQA方法重新分配了所有高于$ q $ - Quantile(例如$ 90 \%$)的所有权重,以便中位数,因此权重遵循分数 - 从残差得出的调整分布。借助迭代的重新加权技术,RQA也非常易于实现。实验结果表明,所提出的方法可以在各种偏微分方程(PDE)问题上胜过几种自适应方法。
translated by 谷歌翻译
由于其效率,一声神经架构搜索(NAS)已被广泛用于发现架构。但是,先前的研究表明,由于架构之间的操作参数过度共享(即大共享范围),架构的一声绩效估计可能与他们在独立培训中的表现没有很好的相关性。因此,最近的方法构建了更高参数化的超级链,以降低共享程度。但是这些改进的方法引入了大量额外的参数,因此在培训成本和排名质量之间导致不良的权衡。为了减轻上述问题,我们建议将课程学习应用于共享范围(接近),以有效地训练超级网。具体而言,我们在一开始就以很大的共享范围(简单的课程)训练超网,并逐渐降低了超级网的共享程度(更难的课程)。为了支持这种培训策略,我们设计了一个新颖的超级网(闭合性),该超级网(CLESENET)将参数从操作中解耦,以实现灵活的共享方案和可调节的共享范围。广泛的实验表明,与其他一击的超级网络相比,Close可以在不同的计算预算限制中获得更好的排名质量,并且在与各种搜索策略结合使用时能够发现出色的体系结构。代码可从https://github.com/walkerning/aw_nas获得。
translated by 谷歌翻译
最近,机器学习(ML)电位的发展使得以量子力学(QM)模型的精度进行大规模和长期分子模拟成为可能。但是,对于高水平的QM方法,例如在元gga级和/或具有精确交换的密度函数理论(DFT),量子蒙特卡洛等,生成足够数量的用于训练的数据由于其高成本,计算挑战性。在这项工作中,我们证明了基于ML的DFT模型Deep Kohn-Sham(Deepks)可以在很大程度上缓解这个问题。 DeepKS采用计算高效的基于神经网络的功能模型来构建在廉价DFT模型上添加的校正项。在训练后,DeepKs提供了与高级QM方法相比,具有紧密匹配的能量和力,但是所需的训练数据的数量是比训练可靠的ML潜力所需的数量级要小。因此,DeepKs可以用作昂贵的QM型号和ML电位之间的桥梁:一个人可以生成相当数量的高准确性QM数据来训练DeepKs模型,然后使用DeepKs型号来标记大量的配置以标记训练ML潜力。该周期系统方案在DFT软件包算盘中实施,该计划是开源的,可以在各种应用程序中使用。
translated by 谷歌翻译
Vision Transformer(VIT)在许多视觉任务中都取得了出色的性能。但是,在瞄准高分辨率移动视觉应用时,VIT不如卷积神经网络(CNN)。 VIT的关键计算瓶颈是SoftMax注意模块,该模块具有二次计算复杂性与输入分辨率。将其部署在边缘设备上的VIT成本至关重要。现有方法(例如,Swin,Pvt)限制了本地窗口中的软磁性注意力或减少键/价值张量的分辨率以降低成本,从而牺牲了VIT在全球功能提取方面的核心优势。在这项工作中,我们提出了有效的VIT体系结构,用于高分辨率低计算的视觉识别。我们建议不限制SoftMax的注意力,而是建议用线性注意力替代SoftMax的注意力,同时通过深度卷积增强其局部特征提取能力。有效Vit在享受线性计算复杂性的同时,保持全球和局部特征提取能力。关于可可对象检测和城市景观语义分割的广泛实验证明了我们方法的有效性。在可可数据集上,有效Vit以4.4g Mac的功能达到42.6 AP,超过2.4 AP的EfficityDet-D1,而MAC少27.9%。在CityScapes上,EfficityVit以19.1g Mac的MAC达到78.7 MIOU,在2.5 MIOU上的表现优于Segformer,同时需要的计算成本少于1/3。在Qualcomm Snapdragon 855 CPU上,有效Vit比有效网络快3倍,同时达到了更高的成像网精度。
translated by 谷歌翻译
旨在生成新的字体的几个示例字体(FFG),由于劳动力成本的显着降低,它引起了人们的关注。典型的FFG管道将标准字体库中的字符视为内容字形,并通过从参考字形中提取样式信息将其转移到新的目标字体中。大多数现有的解决方案明确地删除了全球或组件的参考字形的内容和参考字形的样式。但是,字形的风格主要在于当地细节,即激进,组件和笔触的风格一起描绘了雕文的样式。因此,即使是单个字符也可以包含在空间位置分布的不同样式。在本文中,我们通过学习提出了一种新的字体生成方法1)参考文献中的细粒度局部样式,以及2)内容和参考文字之间的空间对应关系。因此,内容字形中的每个空间位置都可以使用正确的细粒样式分配。为此,我们对内容字形的表示作为查询和参考字形表示作为键和值的跨注意。交叉注意机制无需明确地删除全球或组件建模,而是可以在参考文字中遵循正确的本地样式,并将参考样式汇总为给定内容字形的精细粒度样式表示。实验表明,所提出的方法的表现优于FFG中最新方法。特别是,用户研究还证明了我们方法的样式一致性显着优于以前的方法。
translated by 谷歌翻译
姿势估计在以人为本的视力应用中起关键作用。但是,由于高计算成本(每帧超过150 GMAC),很难在资源受限的边缘设备上部署最新的基于HRNET的姿势估计模型。在本文中,我们研究了在边缘实时多人姿势估计的有效体系结构设计。我们透露,通过我们的逐渐收缩实验,HRNET的高分辨率分支对于低计量区域的模型是多余的。删除它们可以提高效率和性能。受这一发现的启发,我们设计了LitePose,这是一种有效的单分支架构,用于姿势估计,并引入了两种简单的方法来增强LitePose的能力,包括Fusion Deconv Head和大型内核Corvs。 Fusion deconv头部删除了高分辨率分支中的冗余,从而使尺度感知的特征融合且开销低。大型内核会大大提高模型的能力和接受场,同时保持低计算成本。只有25%的计算增量,7x7内核的实现+14.0地图优于人群数据集上的3x3内核。在移动平台上,LitePose与先前最新的有效姿势估计模型相比,LitePose将潜伏期最高可达5.0倍,而无需牺牲性能,从而推动了实时多人姿势估计的边界。我们的代码和预培训模型在https://github.com/mit-han-lab/litepose上发布。
translated by 谷歌翻译
点云的语义分割通常依赖于累累且昂贵的致密注释,因此它吸引了广泛的关注,以研究弱监督方案的解决方案,仅稀疏点注释。现有作品从给定的标签开始,并将其传播到高度相关但无标记的点,例如数据的指导,例如内部关系。但是,它遭受了(i)对数据信息的效率低下的利用,并且(ii)在给出更少的注释时,很容易抑制对标签的强烈依赖。因此,我们提出了一个新颖的框架,即DimpMatch,它通过将一致性正则化应用于数据本身的足够探测信息,并同时利用弱标签作为帮助,该框架具有数据和标签。通过这样做,可以从数据和标签中学习有意义的信息,以获得更好的表示,这也使模型可以在标签稀疏度的范围内更强大。简单而有效的是,提议的尖头竞赛在Scannet-V2和S3DIS数据集上都在各种弱监督的方案下实现了最先进的性能,尤其是在具有极为稀疏标签的设置上,例如。在0.01%和0.1%的扫描仪V2设置上,SQN超过21.2%和17.2%。
translated by 谷歌翻译